药物介导的电压门控钾通道(HERG)和电压门控钠通道(NAV1.5)可导致严重的心血管并发症。这种上升的担忧已经反映在药物开发竞技场中,因为许多经批准的药物的常常出现心脏毒性导致他们在某些情况下停止他们的使用,或者在某些情况下,他们从市场上撤回。在药物发现过程的开始时预测潜在的HERG和NAV1.5阻滞剂可以解决这个问题,因此可以降低开发安全药物的时间和昂贵的成本。一种快速且经济高效的方法是在杂草中使用硅预测方法,在药物开发的早期阶段杂草出潜在的Herg和Nav1.5阻滞剂。在这里,我们介绍了两种基于强大的基于2D描述符的基于描述符的QSAR预测模型,用于HERG和NAV1.5责任预测。机器学习模型训练,用于回归,预测药物的效力值,以及三种不同效力截止的多条分类(即1 {\ mu} m,10 {\ mu} m,和30 {\ mu}) M),其中托管 - Herg分类器是随机森林模型的管道,受到8380个独特的分子化合物的大型策级数据集。虽然Toxtree-Nav1.5分类器,凯列化SVM模型的管道,由来自Chembl和Pubchem公开的生物活动数据库的大型手动策划的1550个独特的化合物培训。拟议的HERG诱导者表现优于最先进的发布模型和其他现有工具的大多数指标。此外,我们正在介绍Q4 = 74.9%的第一个NAV1.5责任预测模型,Q2 = 86.7%的二进制分类= 71.2%在173个独特的化合物的外部测试组上进行评估。该项目中使用的策划数据集公开可向研究界提供。
translated by 谷歌翻译
Modern statistical learning algorithms are capable of amazing flexibility, but struggle with interpretability. One possible solution is sparsity: making inference such that many of the parameters are estimated as being identically 0, which may be imposed through the use of nonsmooth penalties such as the $\ell_1$ penalty. However, the $\ell_1$ penalty introduces significant bias when high sparsity is desired. In this article, we retain the $\ell_1$ penalty, but define learnable penalty weights $\lambda_p$ endowed with hyperpriors. We start the article by investigating the optimization problem this poses, developing a proximal operator associated with the $\ell_1$ norm. We then study the theoretical properties of this variable-coefficient $\ell_1$ penalty in the context of penalized likelihood. Next, we investigate application of this penalty to Variational Bayes, developing a model we call the Sparse Bayesian Lasso which allows for behavior qualitatively like Lasso regression to be applied to arbitrary variational models. In simulation studies, this gives us the Uncertainty Quantification and low bias properties of simulation-based approaches with an order of magnitude less computation. Finally, we apply our methodology to a Bayesian lagged spatiotemporal regression model of internal displacement that occurred during the Iraqi Civil War of 2013-2017.
translated by 谷歌翻译
亚组发现是一种描述性和探索性数据挖掘技术,可识别人群中有关感兴趣变量表现出有趣行为的亚组。亚组发现在知识发现和假设生成中有许多应用程序,但对于非结构化的高维数据(例如图像)仍然不适用。这是因为子组发现算法依赖于基于(属性,值)对定义描述性规则,但是,在非结构化数据中,属性并不是很好的定义。即使在数据中存在属性的概念(例如图像中的像素),由于数据的高维度,这些属性也不足够丰富,无法在规则中使用。在本文中,我们介绍了亚组感知的变异自动编码器,这是一种新型的变分自动编码器,它学习了非结构化数据的表示,从而导致具有较高质量的亚组。我们的实验结果证明了该方法在以高质量学习亚组的同时支持概念的解释性的有效性。
translated by 谷歌翻译
大规模图像数据库在很大程度上偏向于在选择少数文化中遇到的对象和活动。这缺乏我们称之为隐藏的尾巴的文化多样化的图像限制了预先训练的神经网络的适用性,并不完全不包括代表性地区的研究人员。要开始纠正此问题,我们策划Turate-150k,阿拉伯世界的图像数据库反映了常见于那里的物体,活动和场景。在此过程中,我们介绍了三个基准数据库,Turath标准,艺术和联合国教科文组织专用子集,图中的数据集。在展示在此类基准上部署时在想象中预先培训的现有网络的限制后,我们培训并评估图像分类任务的若干网络。由于突如其临时,我们希望能够在非代表性地区进行机器学习研究人员,并激励释放额外的以文化为中心的数据库。可以此处访问数据库:Danikiyasseh.github.io/turath。
translated by 谷歌翻译
数字病理学是现代医学中最重要的发展之一。病理检查是医疗方案的黄金标准,并在诊断中发挥基本作用。最近,随着数字扫描仪的出现,现在可以将组织组织病理学载玻片数字化并作为数字图像存储。结果,数字化组织病理组织可用于计算机辅助图像分析程序和机器学习技术。核的检测和分割是癌症诊断中的一些基本步骤。最近,深度学习已被用于核细胞分割。然而,核细胞分割的深度学习方法中的一个问题是缺乏斑块的信息。本文提出了深入的基于学习的核细胞分割方法,这解决了补丁边界地区误入歧途的问题。我们使用本地和全局修补程序来预测最终的分割图。多器官组织病理学数据集上的实验结果表明,我们的方法优于基线核细胞分割和流行分割模型。
translated by 谷歌翻译